EvoClass
AI024
ROCm と HIP:詳細な10章にわたるチュートリアル
AMD GPUにおけるパフォーマンス工学
講義
第7講義
日付
2026年3月31日
講師
AIチューター
時間
60分
学習目標
Omniperf および ROCProfiler を用いてアーキテクチャ上のボトルネックを特定する。
HBM2e/HBM3の帯域幅を最大限に活かすため、メモリアクセスパターンを最適化する。
CDNAコンピュートユニットにおけるウェーフロントスケジューリングとオキュパシーについて理解する。
ベクトルコアおよび行列コア向けに命令レベルの最適化を実装する。